0th Berlin Symposium on Artificial Teacher Avatars
by daniel-hromada
()
@


0th Berlin Symposium on Artificial Teacher Avatars

Introduction

The Objective

The objective of "0th Berlin Symposium on Artificial Teacher Avatars" is the presentation, discussion and development of tools, models and methodologies leading to emergence of generative AI avatars usable and useful in domain of education.

Why this symposium ?

Generative AI is reality and it's better to be its co-creator then its consumer.

Learning by doing & experimenting & creating critical stance.

Personalized AI tutors are important components of vaste majority of future educational systems.

Property "avatarized" is the property 23 on the roadmap to an ideal Bildungsinstrument I've been working on since some times.

What is this symposium about ?

It's about:

Artificial Intelligence in Education (AIED): Education about AI & Education with AI

generative artificial intelligence (notably large language models, text-to-speech / voice cloning, talking head generation)

multi-modal & collective avatars

open-source tools (text-webui-..., comfy ui), programming languages (python, mojo), models (Stable Diffusion, Mistral) & concrete methods (LORA, Direct Preferenc Optimization)

tweaking knobs & parameters

& maybe little bit of "prompt engineering"

What is this symposium NOT about ?

This symposium is NOT about:

dysinformation

deep-fakes of living persons

corporate products

entertainment (e.g. humor / horror / porn / cognitive spam)

so-called discriminative AI (e.g. speech/face/object recognition etc.)

I-avatarizaion

Anything else?

Definitions

Generative KI

Generative künstliche Intelligenz (KI) widmet sich der Erstellung neuer, oft unvorhergesehener Daten oder Inhalte, die das Ergebnis des Lernens aus bestehenden Daten sind. Diese Modelle 'verstehen' irgendwie die Struktur und Verteilung der Daten, auf denen sie trainiert wurden, und versuchen, neue Muster zu erstellen, die mit diesen erlernten Mustern übereinstimmen. Generative Modelle können für verschiedene Zwecke verwendet werden, wie zum Beispiel die Erstellung von Bildern, Texten, Tönen oder Videos und werden oft in Bereichen wie der künstlichen Inhaltsproduktion oder Sprachsynthese eingesetzt.

Text-zu-Bild

Text-zu-Bild bzw. Sprache-zu-Bild generative künstliche Intelligenz (KI)  ermöglicht das Erstellen neuer, einzigartiger bildlicher Inhalte mittels Beschreibungen oder Befehlen in Textform (bzw. gesprochener Sprache).

Großes Sprachmodell

Großes Sprachmodell (LLM), oder Large Language Model, ist ein Typ der künstlichen Intelligenz, der entwickelt wurde, um menschliche Sprache zu verstehen und zu generieren. Diese Modelle werden an riesigen Textmengen geschult, wodurch sie Grammatik, Wortschatz und Kontext verschiedener Sprachen lernen. Die Fähigkeit von LLM, zusammenhängende und grammatikalisch korrekte Texte zu generieren, ermöglicht es ihnen, verschiedene Aufgaben zu erfüllen, wie Fragen zu beantworten, Texte zu schreiben, Sprachen zu übersetzen oder Informationen zu zusammenzufassen, und das alles ohne explizite Programmierung spezifischer Regeln oder Logiken.

Neuronale Netze

Neuronale Netze im Kontext der KI sind keine echten Nervenzellen, sondern softwarebasierte Modelle, deren Architektur von der Art und Weise inspiriert ist, wie das menschliche Gehirn Informationen verarbeitet. Diese Modelle bestehen aus "Schichten" von Datenstrukturen, die "Neuronen" genannt werden. Die Neuronen sind miteinander verbunden und ihre Verbindungen haben ein bestimmtes "Gewicht". Im Lernprozess passt das System diese Gewichte - auch "Parameter" genannt - allmählich an, um den Fehler zwischen seiner Vorhersage und dem, was vorhergesagt werden soll, zu verringern.

Tiefes Lernen & große Daten

Tiefes Lernen oder Deep Learning nutzt neuronale Netze mit vielen Schichten (daher 'tief'), was dem Modell ermöglicht, komplexe Muster in Daten auf verschiedenen Abstraktionsebenen zu lernen. Deep Learning wird in vielen Bereichen angewendet, einschließlich Bild- und Spracherkennung, und ist eine Schlüsseltechnologie in der Entwicklung autonomer Systeme wie selbstfahrende Autos oder Spracherkennung.

Der Schlüssel zum Erfolg ist eine möglichst große Menge an Trainingsdaten.

TPU

GPU (Grafikverarbeitungseinheiten, NVIDIA) und TPU (Tensor-Verarbeitungseinheiten, Google) sind jene Hardware-Innovationen, die tiefgehendes Lernen in einem unvorstellbaren Umfang ermöglichen.

model

A trained neural network is stored in a file. This file is called "a model". When You want to use it - either for inferencing or training or both - You need to load the model from the disk into memory.

Based on the amount of "parameters" (e.g. numbers which represent the synaptic weight) the model contains, the process of loading into memory shall be or shall not be succesful ;)

lora

Lora is like a small "adapter" model which You can train as an addition to Your main "big" model. Training of a Lora is much faster than fine-tuning of the big model itself.

With a properly trained Lora, You will give Your avatar a unique personality.

lora

Lora is like a small "adapter" model which You can train as an addition to Your main "big" model. Training of a Lora is much faster than fine-tuning of the big model itself.

With a properly trained Lora, You will give Your avatar a unique personality.

training & inferencing

In machine learning and AI, we speak about

"training" when the AI is learning from the data we provide it

"inferencing" when the AI is using its current "knowledge" to solve new problems (e.g. problems which maybe weren't in the training data at all)

λόγος - Word

φωνή - Voice

πρόσωπο - Face